<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>同义词和分析链 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/synonyms-analysis-chain.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/synonyms-analysis-chain.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/synonyms-analysis-chain.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/synonyms-analysis-chain.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-link"><a href="synonyms.html">同义词</a></span>
»
<span class="breadcrumb-node">同义词和分析链</span>
</div>
<div class="navheader">
<span class="prev">
<a href="synonyms-expand-or-contract.html">« 扩展或收缩</a>
</span>
<span class="next">
<a href="multi-word-synonyms.html">多词同义词和短语查询 »</a>
</span>
</div>
<div class="section">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="synonyms-analysis-chain"></a>同义词和分析链 (Synonyms and The Analysis Chain)<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/260_Synonyms/50_Analysis_chain.asciidoc">edit</a>
</h2>
</div></div></div>
<p>在  <a class="xref" href="synonym-formats.html" title="同义词格式">同义词格式</a> 一章中，我们使用 <code class="word">u s a</code> 来举例阐述一些同义词相关的知识。那么为什么
我们使用的不是 <code class="word">U.S.A.</code> 呢？原因是， 这个 <code class="literal">同义词</code> 的语汇单元过滤器(token filter)只能接收到在它前面的语汇单元过滤器或者分词器(tokenizer)的输出结果。</p>
<p>假设我们有一个分析器，它由 <code class="literal">standard</code> 分词器、 <code class="literal">lowercase</code> 的语汇单元过滤器、 <code class="literal">synonym</code> 的语汇单元过滤器组成。文本 <code class="word">U.S.A.</code> 的分析过程，看起来像这样的：</p>
<div class="pre_wrapper lang-text">
<pre class="programlisting prettyprint lang-text">original string（原始文本）                       → "U.S.A."
standard           tokenizer（分词器）            → (U),(S),(A)
lowercase          token filter（语汇单元过滤器）  → (u),(s),(a)
synonym            token filter（语汇单元过滤器）  → (usa)</pre>
</div>
<p>如果我们有指定的同义词 <code class="word">U.S.A.</code> ，它永远不会匹配任何东西。因为， <code class="word">my_synonym_filter</code> (注: 一个自定义的过滤器) 看到词项的时候，句号(英文的点)已经被移除了，并且字母已经被小写了。</p>
<p>这其实是一个非常需要注意的地方。如果我们想同时使用同义词特性与词根提取(stemming)特性，那么 <code class="word">jumps</code> 、 <code class="word">jumped</code> 、 <code class="word">jump</code> 、 <code class="word">leaps</code> 、 <code class="word">leaped</code> 和 <code class="word">leap</code> 这些词是否都会被索引成一个 <code class="word">jump</code> ？
我们  可以把同义词过滤器放置在词根提取之前，然后把所有同义词以及词形变化都列举出来：</p>
<pre class="literallayout">"jumps,jumped,leap,leaps,leaped =&gt; jump"</pre>

<p>但更简洁的方式是将同义词过滤器放置在词根过滤器之后，然后把词根形式的同义词列举出来：</p>
<pre class="literallayout">"leap =&gt; jump"</pre>

<div class="section">
<div class="titlepage"><div><div>
<h3 class="title">
<a id="_大小写敏感的同义词"></a>大小写敏感的同义词<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/260_Synonyms/50_Analysis_chain.asciidoc">edit</a>
</h3>
</div></div></div>
<p>通常，我们把同义词过滤器放置在 <code class="literal">lowercase</code> 语汇单元过滤器之后，因此，所有的同义词  都是小写。
但有时会导致奇怪的合并。例如， <code class="word">CAT scan (造影扫描图)</code>和一只 <code class="word">cat</code> 有很大的不同，或者 <code class="word">PET</code> （正电子发射断层扫描）和 <code class="word">pet</code> 。
就此而言，姓 <code class="word">Little</code> 也是不同于形容词 <code class="word">little</code> 的 (尽管当一个句子以它开头时，首字母会被大写)。</p>
<p>如果根据使用情况来区分词义，则需要将同义词过滤器放置在 <code class="literal">lowercase</code> 筛选器之前。当然，这意味着同义词规则需要列出所有想匹配的变化（例如， <code class="word">Little、LITTLE、little</code> ）。</p>
<p>相反，可以有两个同义词过滤器：一个匹配大小写敏感的同义词，一个匹配大小写不敏感的同义词。例如，大小写敏感的同义词规则可以是这个样子：</p>
<pre class="literallayout">"CAT,CAT scan           =&gt; cat_scan"
"PET,PET scan           =&gt; pet_scan"
"Johnny Little,J Little =&gt; johnny_little"
"Johnny Small,J Small   =&gt; johnny_small"</pre>

<p>大小不敏感的同义词规则可以是这个样子：</p>
<pre class="literallayout">"cat                    =&gt; cat,pet"
"dog                    =&gt; dog,pet"
"cat scan,cat_scan scan =&gt; cat_scan"
"pet scan,pet_scan scan =&gt; pet_scan"
"little,small"</pre>

<p>大小写敏感的同义词规则不仅会处理 <code class="word">CAT scan</code> ，而且有时候也可能会匹配到 <code class="word">CAT scan</code> 中的 <code class="word">CAT</code>（注：从而导致 <code class="word">CAT scan</code> 被转化成了同义词 <code class="word">cat_scan scan</code> ）<em>(这里的原英文内容有问题,翻译的很可能不对!)</em> 。出于这个原因，在大小写敏感的同义词列表中会有一个针对较坏替换情况的特异规则 <code class="word">cat_scan scan</code> 。</p>

<div class="tip admon">
<div class="icon"></div>
<div class="admon_content">
<p>可以看到它们可以多么轻易地变得复杂。同平时一样， <code class="literal">analyze</code>API 是帮手，用它来检查分析器是否正确配置。参考 <a class="xref" href="analysis-intro.html#analyze-api" title="测试分析器">测试分析器</a>.</p>
</div>
</div>

</div>

</div>
<div class="navfooter">
<span class="prev">
<a href="synonyms-expand-or-contract.html">« 扩展或收缩</a>
</span>
<span class="next">
<a href="multi-word-synonyms.html">多词同义词和短语查询 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>